近期NVIDIA似乎又再次加滿油,催落去! 股價水漲船高。火熱的市場一再昭告著生成式 AI 不僅僅只是 ChatGPT 式的語言生成。根據 Loop Capital 2025 年分析,全球 AI 加速運算支出正以年均複合成長率超過 40% 攀升,預計至 2028 年達到 2 兆美元規模。這波投資潮背後的驅動力來自超大型雲端業者(如 AWS、Azure、Google Cloud)、主權 AI 建設(歐盟、沙烏地、韓國等國主導)、新興雲端服務商(Neocloud,如 CoreWeave、Lambda)與一般企業的大規模部署。
而這一切的關鍵變數,來自生成式 AI 應用的推理階段(inference)出現「運算力爆炸」:以往訓練一個語言模型可能數月一次,但推理階段則是每秒都在發生。尤其從 2024 年起,伴隨 Agentic AI、邏輯推理模型(reasoning models)與 AI 工廠概念崛起,所需的算力已遠超原先訓練模型所設想。筆者透過 AIMochi 筆記工具,整理多方資訊和最新報導內容,快速理解AI產業的最新消息。
還記得,NVIDIA 在 2024 年 GTC 大會上正式發表的 Blackwell 晶片(GB200 系列),被譽為生成式 AI 的新引擎,標誌著雲端運算與 AI 推理進入非 CPU 主導的全新時代。根據 NVIDIA 官方資料與業界分析師 Baruah 預估,Blackwell 晶片將於 2025 年 10 月起達到全產能,並成為 AWS、Microsoft Azure、Google Cloud、Oracle 等全球主要雲端服務供應商的標準建置元件,徹底改寫雲端 AI 架構。
雙 GPU 架構:GB200 Superchip 將兩顆 B200 Tensor Core GPU 與 NVIDIA Grace CPU 透過第五代 NVLink 互聯,實現超高速晶片間通訊,頻寬高達 1.8 TB/s,打造單一巨大 GPU 運算資源。
每秒 20 petaFLOPS 運算力(FP4 精度):Blackwell 支援最新 FP4 微精度運算,搭配全新 Ultra Tensor Core,專為推理階段優化,提供超高效能與精準度。
高達 10 TB/s 記憶體頻寬(NVLink)與 192GB HBM3e 高速記憶體:大幅提升資料吞吐量,減少記憶體瓶頸,支援更大模型與批次運算。
機密運算(Confidential Computing)支援:強化資料隱私與安全,符合企業級安全標準,保障雲端 AI 運算環境。
能源效率提升高達 25 倍:相較前代 Hopper 架構,Blackwell 在相同電力消耗下可執行數倍推理工作,降低總擁有成本(TCO)與碳足跡。
NVIDIA GB200 NVL72 系統結合 36 顆 GB200 Superchips(共 72 顆 Blackwell GPU 與 36 顆 Grace CPU),透過 NVLink Switch 與液冷技術整合成一個單一龐大 GPU,提供高達 1.4 exaflops 的 AI 運算能力與 30TB 超高速統一記憶體。該系統在大型語言模型(LLM)推理表現上,比同等規模的 H100 系統快 30 倍,且能耗降低 25 倍,成為全球領先的 DGX SuperPOD 解決方案核心。
Baruah 預測,非 CPU 運算在全球雲端基礎設施中的比重,將從 2024 年初的約 12% 飆升至 2028 年的 50% 至 60%。這一趨勢反映出生成式 AI 推理階段對運算力的爆炸性需求,推理不像訓練是偶發事件,而是需要每秒持續處理海量請求。隨著 Agentic AI、邏輯推理模型(reasoning models)與 AI 工廠(AI factory)概念興起,推理算力需求遠超過以往訓練模型的設計預期,成為驅動雲端運算架構變革的關鍵因素。
生成式 AI 工廠(AI Factories)已不再是單純的比喻,而是實際存在且迅速成形的產業新趨勢。NVIDIA 於 2024 年 GTC 大會發表的 GB200 NVL72 架構,整合了 72 顆 Blackwell GPU 與 36 顆 Grace CPU,打造出超大規模的 AI 超級計算平台,專門應對大型語言模型(LLM)推理、視覺理解、強化學習訓練等多樣化 AI 工作負載。
GB200 NVL72 採用液冷機架設計,透過第五代 NVLink 技術連接 72 顆 Blackwell GPU,實現高達 1.8 TB/s 的 GPU 間高速互聯頻寬,並配備高達 30TB 的統一高速記憶體,為兆級參數的大型語言模型提供 30 倍即時推論速度。此外,該系統的能源效率較前代 Hopper 架構提升高達 25 倍,顯著降低運算成本與碳足跡。
NVIDIA 同時推出 HGX B200 與 B100 模組,企業可根據模型規模與應用需求彈性部署與升級,滿足從中小型企業到超大型資料中心的多樣化需求。這些模組已成為新世代 AI 超級電腦的核心組件,支持從訓練到推理的全流程運算。
根據 Deloitte、IDC 與 McKinsey 等權威報告,未來 AI 工廠將呈現區域化、主權化與高度自動化的特徵。各國因應數據主權與法規要求,積極建置本地化 AI 生態系統,形成類似晶片製造廠的產業鏈結構。
主要應用領域包括:
國家語言與法規需求的本地模型推理:如歐盟推動數位主權政策,要求 AI 模型在本地運行以保障資料隱私與合規。
高機密資料處理:金融交易、醫療影像診斷等對資料安全要求極高的場景,需在受控環境下進行 AI 推理。
科學運算與工業數據分析:包括氣象模擬、製造瑕疵檢測等需高效能計算與即時反饋的應用。
AI 工廠不僅是基礎設施的升級,更帶動企業商業模式的根本重組。企業將從傳統 IT 架構轉向以 AI 為核心的智能工廠,結合自動化生產與智慧決策,提升效率與競爭力。
隨著 NVIDIA GB200 NVL72 等高效能 AI 系統的普及,更多企業與政府機構將能部署專屬的 AI 工廠,推動從研發、製造到服務的全面數位轉型,開創新一波產業革命。
隨著生成式 AI 與大規模推理需求激增,傳統 hyperscalers(大型雲端服務商)之外,Neocloud(雲端新秀) 與主權 AI 架構正快速崛起,成為雲端與邊緣運算領域的重要力量。
CoreWeave 是業界知名的 Neocloud 企業,專注於提供 NVIDIA H100 與 B100 GPU 租賃服務,支援 AI 初創企業與大型機構的彈性算力需求。2025 年,CoreWeave 獲得數十億美元融資,並計劃於同年進行 IPO,擁有超過 25 萬顆 NVIDIA GPU,分布於 32 座資料中心,成為僅次於 AWS、Microsoft、Google 等 hyperscaler 之外的重要 GPU 雲端供應商。
CoreWeave 與 NVIDIA 建立緊密合作關係,獲得優先供應 GPU 晶片,並與 OpenAI、Meta、IBM、Microsoft 等大型 AI 企業簽訂多年租賃合約,成為 AI 運算基礎設施的重要支柱。這種模式有效滿足了 AI 產業對彈性、高效能算力的爆炸性需求。
面對全球數據隱私與安全法規趨嚴,主權 AI 模式成為各國政府與企業的重點策略。歐盟於 2024 年推出《AI Act》,強調敏感 AI 模型必須在本地訓練與推理,保障數據主權與合規性。韓國、沙烏地阿拉伯、台灣等國也積極推動主權數據中心建設,建立區域化 AI 生態系統,減少對外部雲端服務的依賴。
AI 推理服務逐漸向邊緣部署轉移,企業結合雲端高性能運算與邊緣低延遲設備,實現低能耗與高安全性的雙重目標。這種混合架構不僅提升即時反應能力,也加強數據保護,滿足金融、醫療、工業等高敏感度行業需求。
隨著 AI 工作負載多樣化,市場對 NVIDIA Blackwell 系列晶片的模組化、低功耗版本需求日益強烈。這不僅有助於邊緣設備的部署,也促進 AI 基礎設施的靈活擴展,支持從超大規模資料中心到本地 AI 工廠的全場景覆蓋。
生成式 AI 的「黃金浪潮」,正從訓練轉向推理、從模型轉向工廠、從雲端擴展到邊緣與主權系統。NVIDIA Blackwell 晶片不是終點,而是下一個技術週期的起點。當非 CPU 運算成為主流、AI 工廠走向地區化部署,誰能在能效、資料安全、模型調度與產業垂直化應用中脫穎而出,將主導下個十年的智慧時代競賽。
伏筆未盡── 當 AI 工廠全面量產、推理架構定型後,下一步的浪潮會是什麼?是類腦晶片、光子運算,還是人機共融的決策系統?未來,才正要開始。
以上僅供參考與資訊分享之用,想快速了解更多資訊,透過 AIMochi 筆記工具,幫我們從海量資料中,梳理出關鍵資訊,讓我們精準掌握重要訊息!